科学软件资源导航

Scientific software resource navigation

标签: #Web crawler

火车头采集器

也称火车采集器,LocoySpider,一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。火车采集器历经十二年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。

Nutch

Nutch is a well matured, production ready Web crawler. Nutch 1.x enables fine grained configuration, relying on?Apache Hadoop??data structures, which are great for batch processing.